AI资讯新闻榜单内容搜索-Language M

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Language M
VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

近年来,Vision-Language Models(视觉—语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报
5698 点击    2026-01-31 12:30
刚刚,DeepSeek 再发梁文锋署名新论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

刚刚,DeepSeek 再发梁文锋署名新论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

刚刚,DeepSeek 再发梁文锋署名新论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

今天凌晨,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块 Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”, 梁文锋再次出现在合著者名单中。

来自主题: AI资讯
10310 点击    2026-01-13 07:59
MIT发现让AI变聪明的秘密,竟然和人类一模一样

MIT发现让AI变聪明的秘密,竟然和人类一模一样

MIT发现让AI变聪明的秘密,竟然和人类一模一样

你有没有发现,你让AI读一篇长文章,结果它读着读着就忘了前面的内容? 你让它处理一份超长的文档,结果它给出来的答案,牛头不对马嘴? 这个现象,学术界有个专门的名词,叫做上下文腐化。 这也是目前AI的通病:大模型的记忆力太差了,文章越长,模型越傻!

来自主题: AI技术研报
9095 点击    2026-01-04 16:53
MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

新年伊始,MIT CSAIL 的一纸论文在学术圈引发了不小的讨论。Alex L. Zhang 、 Tim Kraska 与 Omar Khattab 三位研究者在 arXiv 上发布了一篇题为《Recursive Language Models》的论文,提出了所谓“递归语言模型”(Recursive Language Models,简称 RLM)的推理策略。

来自主题: AI技术研报
6392 点击    2026-01-04 14:51
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

近日,腾讯微信 AI 团队提出了 WeDLM(WeChat Diffusion Language Model),这是首个在工业级推理引擎(vLLM)优化条件下,推理速度超越同等 AR 模型的扩散语言模型。

来自主题: AI技术研报
9411 点击    2026-01-03 13:56
告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

告别「盲目自信」,CCD:扩散语言模型推理新SOTA

扩散语言模型(Diffusion Language Models)以其独特的 “全局规划” 与并行解码能力广为人知,成为 LLM 领域的全新范式之一。然而在 Any-order 解码模式下,其通常面临

来自主题: AI技术研报
7178 点击    2025-12-13 10:59
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

来自主题: AI技术研报
8568 点击    2025-12-08 14:13
DeepSeek-V3.2|技术报告解读

DeepSeek-V3.2|技术报告解读

DeepSeek-V3.2|技术报告解读

这是一篇报告解读,原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》

来自主题: AI技术研报
8440 点击    2025-12-02 10:46
通用的dLLM开发框架,让BERT掌握扩散式对话

通用的dLLM开发框架,让BERT掌握扩散式对话

通用的dLLM开发框架,让BERT掌握扩散式对话

扩散式语言模型(Diffusion Language Model, DLM)虽近期受关注,但社区长期受限于(1)缺乏易用开发框架与(2)高昂训练成本,导致多数 DLM 难以在合理预算下复现,初学者也难以真正理解其训练与生成机制。

来自主题: AI技术研报
8212 点击    2025-11-24 10:19